En la Europa del siglo XXI, cómo y dónde se desplaza la gente para ir a trabajar es un tema muy importante. Este fenómeno, llamado “commuting” o movilidad laboral, nos dice mucho sobre la economía y la cohesión social del continente. Se refiere específicamente al trayecto regular que una persona realiza entre su lugar de residencia y su lugar de trabajo o estudio. La creciente fragmentación espacial entre lugares de residencia y trabajo representa una transformación estructural profundamente influenciada por políticas de integración europea y la reconfiguración de los mercados laborales regionales.
Nos enfrentamos a una paradoja fundamental: mientras la movilidad laboral es esencial para la optimización económica y una concordancia eficiente entre talento y empleo, su crecimiento exponencial genera graves problemas que amenazan la sostenibilidad del modelo europeo:
Desequilibrios territoriales crecientes entre regiones receptoras y emisoras de trabajadores
Presión insostenible sobre infraestructuras de transporte y sistemas medioambientales
Costes humanos en calidad de vida, salud y cohesión familiar
Brechas de productividad entre centros económicos y periferias
Este problema se sitúa en el corazón de debates cruciales:
Crisis de Vivienda y Asequibilidad: el commuting como respuesta adaptativa a la imposibilidad de residir cerca de los centros de empleo cualificado.
Transición Ecológica: los desplazamientos laborales representan aproximadamente el 25% de las emisiones de transporte en la UE, convirtiéndose en un obstáculo crítico para los objetivos del Pacto Verde Europeo.
Desigualdad entre Regiones: Muestra que hay zonas muy ricas en empleo y otras que funcionan principalmente como “ciudades dormitorio”.
Transformación Digital y Teletrabajo: La pandemia aceleró tendencias que podrían reconfigurar permanentemente los patrones de movilidad, creando nuevas oportunidades y riesgos para las regiones periféricas.
En este contexto, comprender los volúmenes de movilidad y las distancias recorridas se convierte en una necesidad estratégica. Nos encontramos ante la falta de análisis integrados que combinen patrones espaciales de movilidad (origen-destino), características sociodemográficas de los trabajadores, tipologías de empleo y sectores económicos y distancias y tiempos reales de desplazamiento
La escala regional NUTS 2 representa la unidad óptima para este análisis, ya que corresponde al nivel donde se diseñan e implementan las políticas regionales europeas, permitiendo diseñar estrategias de planificación territorial coordinada, optimizar inversiones en infraestructuras de transporte y desarrollar políticas de vivienda y desarrollo económico integradas.
La movilidad laboral ya no puede analizarse como un fenómeno aislado, sino como el sistema circulatorio de la economía europea integrada, cuya salud determina en gran medida la competitividad, sostenibilidad y equidad del proyecto común europeo en las próximas décadas.
Si bien lfst_r_lfe2ecomm proporciona los flujos absolutos de movilidad laboral, presenta una limitación crítica: no contextualiza estos flujos dentro del mercado laboral regional total. Esta carencia impide:
Calcular proporciones significativas respecto a la población empleada total
Comparar regiones de diferente tamaño demográfico y económico
Analizar intensidades relativas de movilidad entre territorios
La integración del dataset lfst_r_lfe2emprtn (Employment by region and commuting patterns) resuelve estas limitaciones al proporcionar:
Proporción de trabajadores que commutan respecto al total de empleados
Porcentajes de población que trabaja en su región de residencia vs. fuera de ella
Tamaño de la base de empleo total en cada región NUTS 2
Capacidad para calcular indicadores de intensidad de movilidad
Identificación de regiones “dormitorio” con alta dependencia laboral externa
Detección de polos de atracción laboral regional
Métricas estandarizadas que permiten comparar regiones de diferente tamaño
Indicadores normalizados para análisis temporales consistentes
La movilidad laboral o commuting representa los desplazamientos regulares entre residencia y trabajo, configurando regiones funcionales del mercado laboral donde las interacciones económicas superan los límites administrativos. Este fenómeno evidencia la policentricidad territorial de la UE, donde múltiples núcleos urbanos mantienen relaciones de interdependencia, generando distintos grados de dependencia laboral entre regiones.
Transformaciones críticas actuales exigen nueva investigación:
Crisis de vivienda: Los precios en centros urbanos han aumentado un 35%, convirtiendo el commuting en estrategia forzada para acceder a empleo cualificado.
Transición ecológica: Los desplazamientos laborales contribuyen significativamente al 25% de emisiones del transporte UE.
Reconfiguración post-pandemia: Modelos híbridos de trabajo redistribuyen patrones de movilidad establecidos durante décadas.
Especialización regional acelerada: Concentración de sectores high-tech en clusters específicos aumenta la necesidad de movilidad laboral cualificada.
Este estudio aborda necesidades urgentes de planificación territorial identificando corredores de movilidad prioritarios y optimizando inversiones en transporte sostenible. Contribuye a la cohesión territorial detectando regiones en riesgo de exclusión funcional y mejorando la efectividad de los fondos de cohesión.
La oportunidad temporal es única: contamos con datos post-pandemia suficientes (2021-2023) y coincidimos con el ciclo de implementación de fondos europeos 2021-2027. El contexto político favorece la investigación, con el Pacto Verde Europeo priorizando movilidad sostenible y NextGenerationEU impulsando transformación digital.
La investigación proporciona herramientas para construir sistemas de movilidad más resilientes, anticipando cambios estructurales y diseñando políticas adaptativas para futuras crisis, situándose en la intersección de agendas críticas para el futuro de la UE.
Como estudiante de Ingeniería de Datos, este tema me permite aplicar técnicas avanzadas con datos reales de Eurostat. Es un proyecto donde puedo trabajar con datos espaciales complejos y crear visualizaciones que muestren patrones territoriales.
Me interesa personalmente porque afecta la vida diaria de millones de personas. Veo cómo los largos desplazamientos al trabajo impactan en la calidad de vida y el medio ambiente. Quiero entender estas dinámicas para contribuir a mejores políticas públicas.
Profesionalmente, este trabajo conecta con áreas en crecimiento como el análisis de datos espaciales y la ciencia de datos para el bien social. Como futuro ingeniero de datos, busco proyectos donde la técnica sirva a un propósito social claro, y este es un ejemplo perfecto.
El propósito fundamental de este trabajo es entender no solo cuánta gente se mueve, sino también quiénes son (edad, sector de trabajo, etc.), de dónde a dónde se desplazan y qué distancias recorren. Esto nos ayudará a tomar mejores decisiones para planificar el territorio y el transporte. Otras metas a destacar son:
Analizar cómo factores como la educación, sector laboral y tipo de contrato influyen en los patrones de desplazamiento
Implementar métodos de análisis espacial que revelen relaciones territoriales no evidentes
Identificar puntos críticos donde la movilidad genera problemas de sostenibilidad
Sugerir áreas prioritarias para inversión en infraestructuras de transporte
Establecer metodologías replicables para el análisis de datos de commuting
Documentar lecciones aprendidas sobre la integración de datasets europeos
Este trabajo busca transformar datos brutos en conocimiento útil, conectando el rigor técnico de la ingeniería de datos con las necesidades reales de planificación territorial y calidad de vida de los ciudadanos europeos.
El estudio de cómo se desplazan las personas al trabajo en Europa nos permite entender mejor la vida cotidiana de millones de ciudadanos. Analizar los tiempos y distancias de los desplazamientos no solo refleja la organización de nuestras ciudades, sino también cómo se distribuyen las oportunidades laborales. En muchos casos, largos trayectos diarios pueden dificultar la conciliación entre la vida personal y profesional, mostrando que no todos tienen las mismas facilidades para acceder a un empleo cercano. Este aspecto se relaciona directamente con el ODS 8, Trabajo decente y crecimiento económico, porque los desplazamientos influyen en la calidad y el acceso al empleo.
Además, la manera en que nos movemos tiene un impacto directo en nuestro entorno y en el clima. Elegir caminar, usar la bicicleta o el transporte público en lugar del coche no solo ahorra tiempo y dinero, sino que también ayuda a reducir la contaminación y a hacer que las ciudades sean más agradables para vivir. Analizar estos patrones de commuting contribuye al ODS 13, Acción por el clima, al proporcionar información para reducir emisiones y fomentar una movilidad más sostenible. Al mismo tiempo, permite identificar áreas donde la infraestructura de transporte necesita mejoras, apoyando el ODS 9, Industria, innovación e infraestructura, ya que planificar mejor las redes de transporte puede hacer que los desplazamientos sean más eficientes, seguros e inclusivos.
Este análisis también ayuda a revelar desigualdades invisibles. Por ejemplo, algunas zonas de Europa ofrecen muchas oportunidades de empleo cerca del hogar, mientras que otras obligan a largas horas de viaje. Esto afecta de manera diferente a hombres y mujeres, y puede influir en la manera en que las familias organizan su día a día. Conocer estas diferencias está relacionado con el ODS 5, Igualdad de género, porque permite pensar en soluciones que hagan la movilidad más justa para todos.
| ODS | No procede | Bajo | Medio | Alto |
|---|---|---|---|---|
| 1 Fin de la Pobreza | X | |||
| 2 Hambre cero | X | |||
| 3 Salud y Bienestar | X | |||
| 4 Educación de calidad | X | |||
| 5 Igualdad de género | X | |||
| 6 Agua limpia y saneamiento | X | |||
| 7 Energía Asequible y no contaminante | X | |||
| 8 Trabajo decente y crecimiento económico | X | |||
| 9 Industria, Innovación e Infraestructuras | X | |||
| 10 Reducción de las desigualdades | X | |||
| 11 Ciudades y comunidades sostenibles | X | |||
| 12 Producción y consumo sostenibles | X | |||
| 13 Acción por el clima | X | |||
| 14 Vida submarina | X | |||
| 15 Vida de ecosistemas terrestres | X | |||
| 16 Paz, justicia e instituciones sólidas | X | |||
| 17 Alianzas para lograr objetivos | X |
Para el análisis se ha utilizado R junto con RStudio, que proporcionan un entorno flexible para el manejo de datos, análisis estadístico y visualización. Se han utilizado diversas librerías que permiten abordar distintos aspectos del proyecto: eurostat para acceder y procesar datos estadísticos europeos; openxlsx para la lectura y escritura de archivos Excel; DT para la visualización interactiva de tablas; leaflet y geojsonio para la elaboración de mapas interactivos; tidyverse y ggplot2 para la manipulación de datos y creación de gráficos; urca para análisis econométricos; GGally y pxR para exploración y visualización de relaciones entre variables; y fpp3 para análisis de series temporales. El cuadro de mandos resultante se ha desplegado públicamente mediante el servidor Shiny del DIS de la ULPGC, garantizando accesibilidad remota y difusión eficiente de los resultados.
Utilizaremos la metodología de desarrollo CRISP-DM (Cross Industry Standard Process for Data Mining) que es un marco ampliamente utilizado para proyectos de Ciencias de Datos. En la siguiente figura se presenta un diagrama con las diferentes fases de esta metodología que a continuación describimos con más detalle:
Diagrama metodología de desarrollo CRISP-DM
Al confeccionar este documento he tenido en cuenta:
He verificado que ningún alumno ha elegido, antes que yo, este tema (o uno muy similar) y he puesto los datos del dataset en la WIKI con el listado de temas elegidos por los alumnos.
He redactado con claridad el resumen y utilidad del dataset y he descrito con claridad el significado de las variables categóricas que aparecen y sus posibles opciones.
Hay un número mínimo de regiones NUTS (25 para NUTS0, 90 para NUTS1, 200 para NUTS2 o 500 para NUTS3).
El tamaño de las series temporales cumple apróximadamente que
p50>10.
Las observaciones de España y/o Canarias son mayores (o cercanas)
al p75 de la distribución del nº de observaciones.
El dataset tiene al menos 5 atributos combinados con un número de observaciones cercano al máximo de ellos, teniendo en cuenta que si el dataset contiene información de sexo y grupos de edad, estos pueden también combinarse con el resto de atributos para formar atributos combinados, o bien he añadido otros datasets que aumentan el nº de atributos.
En el análisis visual de las series temporales para España y/o Canarias se aprecia que la mayor parte de las series abarcan un intervalo temporal similar (con más de 10 fechas) y tienen pocos datos faltantes en el medio.
Resumen : Ofrece información estadística detallada sobre la población ocupada en función de su lugar de residencia y de trabajo. Su estructura contempla variables que permiten desagregar los resultados por sexo, grupo de edad, unidad de medida, región de residencia (a nivel NUTS 2) y localización del puesto de trabajo, con categorías que distinguen entre empleo en la misma región, en otra región del país o en el extranjero. Los datos se presentan con periodicidad anual y se expresan en miles de personas, lo que facilita un análisis coherente y comparativo entre territorios.
Utilidad: La utilidad principal de este dataset radica en su capacidad para analizar los patrones de movilidad laboral y los desplazamientos por motivos de trabajo dentro y fuera de los países europeos. Constituye una herramienta clave para la planificación territorial, el diseño de políticas de transporte y empleo, y la evaluación de la cohesión económica y social entre regiones. Asimismo, permite identificar dinámicas diferenciadas según sexo y edad, ofreciendo evidencia empírica que respalda la formulación de estrategias en materia de mercado laboral, movilidad transfronteriza y desarrollo regional equilibrado.
Este dataset contiene información anual relativa a personas empleadas que se desplazan de su lugar de residencia al lugar de trabajo, es decir trabajadores que hacen “commuting” (desplazamiento habitual). Aparte del número de personas (o magnitud del commuting), también se puede desglosar por distintos criterios: sexo (hombres / mujeres), grupo de edad, región (a nivel NUTS 2), y país donde trabajan (incluido trabajo dentro de la misma región o en otra región / país). La unidad de medida es típicamente “miles de personas” (THS_PER, es decir en miles) para contar cuántas personas que residen en una región viajan para trabajar. La frecuencia es anual.
Analizar la dinámica del desplazamiento laboral entre regiones (intraregional / interregional / internacional).
Comparar la magnitud del commuting por sexo, edad o región.
Ver tendencias temporales: si aumenta o disminuye el commuting en determinadas regiones.
Relacionarlo con variables como infraestructura de transporte, conectividad, densidad, o condiciones laborales.
No da información sobre horas de desplazamiento, costos o tiempo de viaje, solo la cantidad de personas.
Puede haber diferencias de cobertura o calidad entre países/regiones.
En regiones pequeñas con pocos datos, algunos valores pueden estar suprimidos por razones de confidencialidad o fiabilidad.
El hecho de que una persona trabaje en una región distinta no implica movilidad diaria (por ejemplo, alguien que vive en una zona fronteriza y trabaja en otro país podría conmutar semanalmente).
## tibble [311,020 × 8] (S3: tbl_df/tbl/data.frame)
## $ freq : chr [1:311020] "A" "A" "A" "A" ...
## $ age : chr [1:311020] "Y15-64" "Y15-64" "Y15-64" "Y15-64" ...
## $ c_work : chr [1:311020] "FOR" "FOR" "FOR" "INR" ...
## $ sex : chr [1:311020] "F" "M" "T" "F" ...
## $ unit : chr [1:311020] "THS_PER" "THS_PER" "THS_PER" "THS_PER" ...
## $ geo : chr [1:311020] "AT" "AT" "AT" "AT" ...
## $ TIME_PERIOD: Date[1:311020], format: "1999-01-01" "1999-01-01" ...
## $ values : num [1:311020] 12 30.2 42.1 1404.7 1706.9 ...
freq: frecuencia con la que se toman las observaciones. Tiene un único valor “A”, que corresponde a datos anuales.
TIME_PERIOD: año de referencia de la observación estadística.
sex: sexo del beneficiario. Tiene 3 valores posibles: “F” femenino, “M” masculino y “T”, total.
age: grupo de edad del beneficiario. Tiene como valores posibles tramos de edad, se usan varias categorías como Y15-64 (personas de 15 a 64 años), Y20-64 (de 20 a 64 años) o Y_GE15 (15 años o más).
c-work: región / país de trabajo — define dónde trabaja la persona en relación con su región de residencia. Algunas categorías posibles son:
values: Mide cuántas personas empleadas, según los criterios anteriores, se encuentran en una de las categorías de c_work. Por ejemplo, cuántas viven en la región X, tienen entre 15-64 años, son mujeres, y trabajan fuera de su región (“otra región”) o en extranjero, etc.
unit: esta variable determina lo que se está
midiendo en la observación (es decir lo que significa el valor de la
variable values). Se usa “THS_PER” que significa mil
personas (“thousands of persons”).
geo: Geografía / región de residencia. Es la región NUTS 2 (o equivalente) donde la persona reside, para cada país participante.
## COLUMNA: freq
## freq N.Observ full_name
## [1,] A 311020 Annual
## COLUMNA: age
## age N.Observ full_name
## [1,] Y_GE15 103793 15 years or over
## [2,] Y15-64 103693 From 15 to 64 years
## [3,] Y20-64 103534 From 20 to 64 years
## COLUMNA: c_work
## c_work N.Observ full_name
## [1,] INR 104838 In the same region
## [2,] OUTR 94335 In another region
## [3,] FOR 82444 Foreign country
## [4,] NRP 29403 No response
## COLUMNA: sex
## sex N.Observ full_name
## [1,] T 106214 Total
## [2,] M 104992 Males
## [3,] F 99814 Females
## COLUMNA: unit
## unit N.Observ full_name
## [1,] THS_PER 311020 Thousand persons
##
## CONTABILIZACIÓN Nº REGIONES NUTS A PARTIR DE LA COLUMNA geo
## NUTS Number of Regions
## [1,] 0 35
## [2,] 1 111
## [3,] 2 290
## [4,] EA20 1
## [5,] EU27_2020 1
## [6,] OTHERS 74
##
## COLUMNA: TIME_PERIOD
## TIME_PERIOD N.observ
## [1,] 1999-01-01 8852
## [2,] 2000-01-01 9068
## [3,] 2001-01-01 9265
## [4,] 2002-01-01 9668
## [5,] 2003-01-01 10269
## [6,] 2004-01-01 11001
## [7,] 2005-01-01 12118
## [8,] 2006-01-01 13054
## [9,] 2007-01-01 13031
## [10,] 2008-01-01 12616
## [11,] 2009-01-01 12553
## [12,] 2010-01-01 12656
## [13,] 2011-01-01 12638
## [14,] 2012-01-01 12746
## [15,] 2013-01-01 12914
## [16,] 2014-01-01 12930
## [17,] 2015-01-01 12928
## [18,] 2016-01-01 12935
## [19,] 2017-01-01 12944
## [20,] 2018-01-01 13049
## [21,] 2019-01-01 13169
## [22,] 2020-01-01 12298
## [23,] 2021-01-01 12426
## [24,] 2022-01-01 12078
## [25,] 2023-01-01 12048
## [26,] 2024-01-01 11766
Observamos que el máximo tamaño de las series temporales es 5 y además menos del 10% tienen ese tamaño.
## # A tibble: 1 × 7
## min p10 p25 p50 p75 p90 max
## <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1 1 4 12 21 26 26 26
Observamos que, para España, el nº de observaciones supera el
p75 de la distribución; aunque, si fueramos a hacer el
estudio para regiones NUTS 2, no lo cumpliría pues para Canarias tiene
9202 observaciones (menor que p75)
Percentiles de la distribución del nº de observaciones por regiones
## # A tibble: 1 × 7
## min p10 p25 p50 p75 p90 max
## <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1 54 326. 515. 669 738 810 918
Nº de observaciones en España/Canarias
## # A tibble: 3 × 3
## geo full_name N.Observ
## <chr> <chr> <int>
## 1 ES Spain 738
## 2 ES7 Canarias 693
## 3 ES70 Canarias 693
## # A tibble: 4 × 6
## # Groups: freq, c_work [4]
## freq c_work unit N.observ init.date end.date
## <chr> <chr> <chr> <int> <date> <date>
## 1 A INR THS_PER 104838 1999-01-01 2024-01-01
## 2 A OUTR THS_PER 94335 1999-01-01 2024-01-01
## 3 A FOR THS_PER 82444 1999-01-01 2024-01-01
## 4 A NRP THS_PER 29403 1999-01-01 2024-01-01
Visualización España/Canarias (máximo 60 columnas y 1000 filas por región)
Este dataset contiene tasas de empleo (porcentajes) de la población en edad de trabajar, desagregadas por sexo, edad, nivel educativo, ciudadanía (o país de origen) y región NUTS 2.
En otras palabras, no proporciona el número absoluto de personas, sino la proporción de la población que está empleada dentro de cada subgrupo.
Los niveles educativos se refieren a la clasificación ISCED (por ejemplo, educación primaria, secundaria, terciaria).
También está considerada la ciudadanía / nacionalidad / país de origen (por ejemplo, nacionales vs no nacionales) para ver diferencias en empleo según migración.
## # A tibble: 906,105 × 8
## freq unit sex age isced11 geo TIME_PERIOD values
## <chr> <chr> <chr> <chr> <chr> <chr> <date> <dbl>
## 1 A THS_PER F Y15-24 ED0-2 AT 1999-01-01 70.3
## 2 A THS_PER F Y15-24 ED3_4 AT 1999-01-01 154
## 3 A THS_PER F Y15-24 ED5-8 AT 1999-01-01 10.2
## 4 A THS_PER F Y15-24 TOTAL AT 1999-01-01 234.
## 5 A THS_PER F Y15-64 ED0-2 AT 1999-01-01 402.
## 6 A THS_PER F Y15-64 ED3_4 AT 1999-01-01 988.
## 7 A THS_PER F Y15-64 ED5-8 AT 1999-01-01 210
## 8 A THS_PER F Y15-64 NRP AT 1999-01-01 NA
## 9 A THS_PER F Y15-64 TOTAL AT 1999-01-01 1600.
## 10 A THS_PER F Y15-74 ED0-2 AT 1999-01-01 409.
## # ℹ 906,095 more rows
## # A tibble: 12 × 3
## geo total pais
## <chr> <dbl> <chr>
## 1 BE 5065. Bélgica
## 2 PT 5112. Portugal
## 3 CZ 5192. Chequia
## 4 SE 5301. Suecia
## 5 RO 7853. Rumanía
## 6 NL 9863. Países Bajos
## 7 PL 17231. Polonia
## 8 ES 21654. España
## 9 IT 23932. Italia
## 10 FR 28965 Francia
## 11 TR 32589. Turquía
## 12 DE 42702. Alemania
## # A tibble: 2 × 2
## sex total
## <chr> <dbl>
## 1 F 112529.
## 2 M 139411.
## # A tibble: 4 × 2
## c_work total
## <chr> <dbl>
## 1 NRP 169.
## 2 FOR 2420.
## 3 OUTR 15037.
## 4 INR 234314.
## # A tsibble: 52 x 3 [1Y]
## # Key: c_work [2]
## TIME_PERIOD c_work total
## <dbl> <fct> <dbl>
## 1 1999 Otro país 28
## 2 2000 Otro país 36.3
## 3 2001 Otro país 52.6
## 4 2002 Otro país 43.7
## 5 2003 Otro país 39.7
## 6 2004 Otro país 37.9
## 7 2005 Otro país 36
## 8 2006 Otro país 55.4
## 9 2007 Otro país 51.3
## 10 2008 Otro país 41.1
## # ℹ 42 more rows
Se observa una clara tendencia al alza en el número de personas empleadas a larga distancia. Ahora intentaremos predecir el comportamiento de esta variable en el futuro.
## # A tibble: 21 × 2
## TIME_PERIOD total
## <dbl> <dbl>
## 1 1999 197.
## 2 2000 214.
## 3 2001 231.
## 4 2002 245.
## 5 2003 256.
## 6 2004 272.
## 7 2009 351.
## 8 2010 343.
## 9 2011 357.
## 10 2012 367.
## # ℹ 11 more rows
## # A tsibble: 26 x 2 [1Y]
## TIME_PERIOD total
## <dbl> <dbl>
## 1 1999 197.
## 2 2000 214.
## 3 2001 231.
## 4 2002 245.
## 5 2003 256.
## 6 2004 272.
## 7 2005 288.
## 8 2006 303.
## 9 2007 319.
## 10 2008 335.
## # ℹ 16 more rows
Una vez rellenados los huecos, volvemos a hacer la descomposición STL
Como podemos observar, se ha reducido significativamente el error.
Es importante observar que esta metodología es iterativa, es decir que los resultados obtenidos en algunas de las fases puede afectar al desarrollo de fases anteriores.
A continuación se describirá en detalle como se han abordado cada una de las fases del desarrollo del proyecto siguiendo esta metodología.
TOTAL HORAS TRABAJADAS EN EL PROYECTO : 10.85
DESGLOSE DETALLADO DE LAS SESIONES DE TRABAJO